“汉语助研”操作指南与案例一：建库

Original 语言科技语言科技 2022-12-05

收录于合集

#汉语助研 12 个

#语料库 13 个

#语料库语言学 13 个

网页信息抽取原理

超大规模网页是语料建库的主要来源，语料库通常需要标记标题、正文、作者等语料信息，但网页含有繁复的html标记，语料信息湮没在芜杂的网页标记之中，较难直接提取。如：

你想要的语料文件

现实中的网页文件

常见有基于统计、视觉、树结构和模板的抽取方法。

基于模板的方法直接、高效、精准、易操作。其原理为：一个网站往往具有统一的网页模板，不会轻易更换，可以根据网页起止标记来抽取特定语料信息。如某网站语料信息抽取的起止标记如下：

表名：语料信息抽取起止标记

针对网页信息的自动抽取和建库，“汉语助研”设计了一个半智能的个性化网页信息抽取及建库模块。该模块自动抽取网页中的定向信息，如标题、正文等，自动进行数据清洗，清除html标记和广告内容，精确干净。

“汉语助研”建库功能的使用

下面详细介绍如何使用汉语助研软件的“建库”功能。

步骤一：打开语料库文件夹并设置保存路径

在“建库”模块下，点击“打开”按钮，打开预先下载好的网页文件所在的文件夹。（E:\\china）

接着点击“保存”,设置抽取后的语料库保存路径和语料库名（E:\\建库\建库文件\）。

步骤二：设置抽取模式与网页编码

在“抽取模式”中，选择“精确抽取”或“懒人模式”。
若选择懒人模式，系统会自动抽取网页中的全部文字块，并不区分标题、正文等，有时会出现包括广告文字等部分无用信息，如图；而精确模式则会定向抽取标题、正文等特定的、干净的语料信息。

在“网页编码”选择中，随机打开右侧文件列表的网页文件，若内容文本框中的文字出现乱码，则需要在网页编码中进行切换，然后重新单击列表网页文件名，可正常显示。

步骤三：选取精确抽取的开始与结束标记

首先，选择标题的开始和结束标记。
标题开始的标记一般出现在字段文本之前，如<title>。选中这个开始标记，滚动或移动鼠标，系统会自动判定是否为有效标记（即第一次出现的标记），并自动将其复制到粘贴板上。我们将<title>粘贴在“标题开始标记”处，标题后的结束标记也是如此，如</title>。

其次，选择正文的开始和结束标记。
在右侧文件列表中多打开几篇语料，寻找其相同的标记规律。找到之后，选择正文前的开始标记，复制粘贴到“在正文开始标记”处，并选择正文的结束标记。如本次语料的正文标记为<article class="article-body" id="article-body">和</article>。注意：所有结束标记都是从对应的起始标记处开始判断是否是第一次出现。

最后，还可根据自己的需要选择其他的标记，例如选择“作者”或“时间”等信息。以本次示例选择的新闻语料为例，可以选择“来源”作为"其他标记"，即找到其前后标记并分别复制粘贴。（<span class="pdr30">来源</span>）

设置好全部的开始、结束标记之后，单击“检查”，若标记选择正确，内容文本框会自动标红所有开始和结束标记。

为确保所有网页的抽取起止标记设置正确，可以在右侧的文件列表中，随机在上、中、下三个位置选择几篇网页，分别单击“检查”，若每篇文章都出现正确的红色标记，则表示标记选择全部正确。

步骤四：进行建库

以上步骤完成之后，点击"建库"，软件很快完成转换，显示共抽取916个网页。打开保存路径下的txt文档，可以发现已经成功抽取所需信息。

以上为汉语助研“建库”功能的使用步骤。

网页语料库展示

快来动手试试建库吧

1 关注“语言科技”公众号2 后台回复“汉语助研”，免费下载正式版

后台回复“汉语助研”，免费获取正式版软件。

3 后台发送“语料库建库”免费获取资源

后台发送“语料库建库”，免费获取批量抽取建库的训练用网页压缩包。

4 操作指南和研究案例分享

关注公众号推文，我们将陆续推出软件的使用操作视频以及典型案例。

往期推荐

汉语助研——语料库建库统计一体化工具

文字 / 刘华陈凯艺任德玲图片 / 刘华任德玲吴贻卿排版 / 陈伊彤陈凯艺
初审 / 陈凯艺郭佳佳审核 / 刘华

END

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“上海王”柯庆施之死的真相

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

“汉语助研”操作指南与案例一：建库

您可能也对以下帖子感兴趣

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“上海王”柯庆施之死的真相

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

生成图片，分享到微信朋友圈

“汉语助研”操作指南与案例一：建库

您可能也对以下帖子感兴趣